非監督式學習( unsupervised learning )
沒有給定事先標記過的訓練資料,自動對輸入的資料進行分類或分群
非監督式學習的區別與監督式學習
-
缺少標籤 資料集通常不包含標籤或目標變量
-
目標不同 非監督式學習在探索資料的結構,例如群集或模式
-
應用場景不同 非監督式學習常用於資料探索、特徵選擇、降維和異常檢測等
常見非監督式學習演算法
聚類 ( Clustering )
將資料分成不同的組或集群,每個集群包含相似的資料點
-
k-平均演算法 ( K-Means Clustering ):
將資料分為 K 個聚類,每個聚類由其平均值(稱為聚類中心),將資料點劃分到最近的聚類,然後更新聚類中心,直到收斂
-
層次聚類 ( Hierarchical Clustering ):
通過建立一個聚類層次結構,可以根據資料的相似性分為不同的聚類,有兩種主要方法:凝聚層次聚類(自下而上)和分裂層次聚類(自上而下)
-
DBSCAN ( Density-Based Spatial Clustering of Applications with Noise ):
基於密度的聚類方法,能識別具有足夠高密度的區域作為聚類,可以發現球形聚類,也可以處理不規則形狀的聚類,並識別噪聲資料
降維 ( Dimensionality Reduction )
減少資料集的維度,同時保留盡可能多的信息,對於處理高維資料、可視化資料以及提高機器學習模型的效率和性能很有用
-
主成分分析 ( Principal Component Analysis, PCA ):
找到資料中的主要方差方向(主成分),通過將資料映射到新的坐標系統,資料就可以降維,也最大程度保留變異性,常用在資料可視化和特徵選擇
-
t-隨機鄰近嵌入法 ( t-Distributed Stochastic Neighbor Embedding, t-SNE ):
用在高維資料的降維和可視化,適合探索資料的局部結構,通過將高維資料映射到低維空間,保留相似性關係
-
自編碼器 ( Autoencoders ):
一種神經網絡架構,包括編碼器部分將資料壓縮成潛在表示,然後解碼器部分再還原為原始資料,自編碼器可以用在降維、去噪和生成資料
異常檢測 ( Anomaly Detection )
識別資料中的異常或不尋常模式
-
高斯分布擬合( Maximum Likelihood ):
假設資料來自於某個已知分布(通常是高斯分布),通過計算最大似然估計的參數(均值μ和協方差矩陣Σ),可以找到最能代表資料的分布,最後使用分布來計算每個資料點的異常得分,異常得分高的點被視為異常
-
Auto-Encoder:
是一種神經網絡架構,將輸入資料壓縮成低維表示,然後還原成原始輸入,如果輸入資料是正常的,Auto-Encoder 可以學習到正常模式的壓縮表示,那麼異常資料的還原誤差通常會更大,因此用於異常檢測
-
One-Class SVM:
是一種支持向量機變體,用在學習正常資料的特徵,並劃分資料空間,使得正常資料位於超平面的一側,當新資料點位於超平面的另一側時,被視為異常
-
Isolation Forest:
是一種基於 Ensemble 的方法,它通過迭代地將資料空間劃分成子空間,以找到異常,適合檢測低密度區域中的異常資料點,具有高效性和高精度,Isolation Forest 在大規模資料集上進行異常檢測時很有用
參考資料
https://zh.wikipedia.org/zh-tw/%E7%84%A1%E7%9B%A3%E7%9D%A3%E5%AD%B8%E7%BF%92
https://medium.com/%E5%AD%B8%E4%BB%A5%E5%BB%A3%E6%89%8D/%E7%95%B0%E5%B8%B8%E6%AA%A2%E6%B8%AC-anomaly-detection-fa300fe6df71